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基于 出 租车 司机 经 验 的 约束 深度 强化 学 习 算 法 路 径 挖掘 
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jj 要 : 利用 出 租车 司机 经 验 ， 提 出 约束 深度 强化 学 习 算 法 (CDRL) 在 线 计算 不 同时 间 段 内 OD 间 最 快 路 线 。 首 
先 ， 描 述 了 路 段 经 验 数据 库 (ERSD) 的 提取 。 然 后 ， 介 绍 了 CDRL 方法 ， 该 方法 主要 包括 两 个 阶段 : 可 选择 约束 
路 段 生 成 和 深度 Q-learning 算法 ,在 第 一 阶段 ,生成 OD( 起 终点 ) 间 可 选择 约束 路 段 ;在 第 二 阶段 ,设计 深度 Q-learning 
算法 学 习 出 租车 司机 的 经 验 ， 并 根据 他 们 的 出 发 时 间 计 算 给 定 OD 间 的 最 快 路 线 。 最 后 ， 在 广州 CBD 进行 了 应 用 
实验 。 结 果 表 明 ，CDRL 方法 计算 在 旅行 时 间 上 ， 优 于 最 短路 径 (SR) 方法 ， 且 与 最 快 路 径 (FR) 方法 计算 路 径 差 
别 不 大 。 此 外 ，CDRL 方法 在 计算 效率 方面 明显 优 于 FR 和 SR 方法 ， 因 此 更 适合 OD 间 最 快 路 径 在 线 计算 。 
关键 词 : 最 快 路 径 挖 据 ; 路 段 经 验 数据 库 ; 经 验 学 习 ; 深度 强化 学 习 
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Mining fastest route using taxi drivers” experience via constrained deep reinforcement learning 


Huang Mint , Mao Feng, Qian Yuxiang 
(Guangdong Provincial Key Laboratory of Intelligent Transportation System, School of Intelligent System Engineering, Sun 
Yat-sen University, Guangzhou 510006, Guangdong, China) 


Abstract: This paper propose constrained deep reinforcement learning (CDRL) to compute the fastest route online using 
taxi drivers’ experience in different time period. Firstly, this paper describe the extraction of experiential road segment 
database (ERSD) . Then CDRL method is introduced, the method is mainly comprised of two phase: bounded condition of 
route and deep Q-learning algorithm. In the first phase, the task is to generate alternative constrained road segments of OD 
pair. In the second phase, deep Q-learning algorithm is devised to learning the experience of taxi drivers, and computing the 
fastest route of a given OD according to their departure time. Lastly, an empirical studies is tested in CBD, Guangzhou. The 
results show that the routes computed by CDRL method is approximately equal to shortest route (SR) and fastest route (FR) 
method in travel time and route length. Furthermore, the CDRL method notably outperforms FR and SR in computing 
efficiency, so it is more suitable for online fastest route computation. 
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0 š 据 中 国 ， 应 该 如 何 从 出 租车 历史 数据 中 学 习 经 验 ;b) 路 线 推 
a a 荐 通常 是 实时 、 在 线 的 ， 因 此 在 这 个 系统 中 需要 对 出 行者 的 
pem 在 线 搜索 OD 间 最 快 路 径 已 成 为 日 常 活动 ， 并 成 为 许多 ”OD 路 线 计算 进行 快速 的 响应 。 
个 地 图 服务 的 关键 功能 ， 如 谷歌 和 百度 地 图 。 快 速 行 驶 路 径 不 针对 第 一 个 问题 出 租车 司机 经 验 学 习 。 常 见 的 方法 是 从 
FI 节省 出 行者 的 时 间 、 减 少 能 源 消 耗 ， 还 可 以 缓解 交通 问题 。 出 租车 轨迹 中 提取 经 验 图 ， 如 时 间 依 赖 的 地 标 B' S, A 
和 保护 环境 ， 这 对 出 行者 和 政府 来 说 都 很 重要 。 良 好 的 路 径 。” ” 验 层 次 图 .中 、 基 于 网 格 的 路 径 图 吊 、 经 验 路 径 数据 库 丫 以 
E 荐 系统 应 考虑 实时 交通 条 件 和 出 行者 驾驶 行为 。 通 常 ， 这 ”及 模式 感知 路 线 图 妆 。 上 述 方 法 中 大 部 分 经 验 图 的 提取 需要 
些 信息 很 难 提取 并 加 入 到 导航 系统 中 114。 完整 的 OD 路 径 。 于 出 租车 GPS 数据 的 稀疏 性 和 低 采 相 
近年 来 ,大 城市 的 出 租车 上 都 安装 了 GPS 传感器 , 可 以 ” 率 ， 很 多 OD 之 间 不 能 获取 足够 的 信息 来 推断 给 定 OD 间 出 
记录 出 租车 的 运动 轨迹 。 出 租车 司机 熟悉 城市 路 网 ， 他 们 通 ”租车 行驶 的 确切 路 线 。 
常 根 据 自己 的 驾驶 经 验 选择 最 快 的 路 径 将 乘客 送 到 目的 地 喇 。 对 于 第 二 个 问题 OD 间 路 线 计算 ， 主 要 有 两 阶段 路 径 计 
出 租车 司机 选择 的 路 径 往 往 比 地 图 服务 软件 外 推荐 的 路 径 花 。 ”算法 B 5、 约束 性 广度 优先 搜索 算法 0 、 最 大 概率 积 算法 03] 
更 少 的 旅行 时 间 和 更 低 的 成 本 。 研究 人 员 意 识 到 , 可 以 利 和 最 短路 径 、 最 快 路 径 算法 等 。 上 述 方法 的 计算 复杂 度 和 
用 出 租车 司机 的 经 验 路 径 挖 掘 OD 间 最 快 路 径 ， 用 于 路 径 规 ”路 网 路 段 或 者 交叉 口 数 成 正 相 关 ， 并 且 采 用 这 些 方 法 计算 
RJS, OD 间 路 径 需要 较 长 的 时 间 。 

本 研究 的 主要 目的 是 利用 出 租车 司机 的 经 验 给 出 行者 在 本 文采 用 强化 学 习 (RL) 算法 进行 经 验 学 习 。 利 用 出 租 
线 推荐 最 快 的 路 径 。 即 给 定 出 行者 OD， 根 据 他 /她 的 出 发 时 ” ”车 GPS 数据 可 能 不 能 得 到 OD 间 所 有 实际 选择 路 径 , 但 可 以 
间 推 荐 OD 间 最 快 路 径 。 研 究 需要 解决 儿 个 关键 问题 : a) 在 ”获取 OD 间 所 有 实际 选择 路 段 。 并 且 GPS 数据 支持 每 条 路 段 
实际 中 , 出 租车 司机 的 轰 驶 经 验 隐 藏 在 大 量 的 出 租车 GPS 数 ”的 速度 估计 ， 然 后 可 以 估计 路 段 的 旅行 时 间 ， 进 而 可 以 建立 
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路 段 经 验 数 据 库 (ERSD) 并 搜索 最 快 路 径 。 利 用 强化 学 习 , 智 ”的 高 峰 时 段 可 能 会 持续 一 整 天 后。 交通 模式 随时 间 变 化 可 能 
能 体 可 以 学 习 ESRD 中 隐 含 的 出 租车 司机 经 验 ， 然 后 找到 最 。 导致 出 租车 司机 作出 不 同 的 路 线 选择 ， 因 此 本 文 构建 基于 时 
快 路 径 。 间 段 的 经 验 路 段 数据 库 。 根 据 广州 道路 交通 的 特性 中， 将 每 
利用 强化 学 习 的 难点 在 于 采用 较 少 耗 时 的 OD 间 在 线 最 ”天 分 为 早 高 峰 时 段 (7:00~9:00)、 晚 高 峰 时 段 (7:00~8:00) 和 其 
快 路 径 计 算 方法 。 神 经 网 络 可 以 快速 求解 这 类 问题 ， 将 路 网 也 非 高 峰 时 段 。 


交叉 口 的 状态 特征 输入 ， 神 经 网 络 可 以 快速 输出 选择 和 交叉 本 文 每 条 ERSD 数据 将 记录 路 段 在 早 高 峰 时 段 、 晚 高 峰 
口 相 连接 的 各 条 路 段 的 价值 。 时 段 、 其 他 非 高 峰 时 段 的 路 段 平均 车 速 ， 以 及 路 段 在 在 早 高 


本 文 提出 约束 深度 强化 学 习 (CDRL) 算法 计算 OD M 条 时 段 、 晚 高 峰 时 段 、 其 他 非 高 峰 时 段 的 旅行 时 间 。 
最 快 路线 。 该 方法 主要 由 路 径 约 束 和 深度 Q-learning 算法 两 2.2 路段 平均 速度 估计 


个 阶段 组 成 。 在 第 一 阶段 , 生成 OD 间 可 选择 约束 路 段 。 对 将 出 租车 的 GPS 位 置信 息 匹配 到 路 网 地 图 上 , GPS 点 在 
OD 间 可 选择 路 段 进行 限制 隐 含 了 出 租车 司机 的 经 验 ， 可 用 路 段 的 分 布 情况 可 分 为 以 下 两 类 ,类 型 1: 同 一 辆 车 在 某 段 路 
于 智能 体 学 习 ， 并 降低 强化 算法 的 仿真 时 间 。 在 第 二 阶段 ， 。 上 留 下 两 个 或 两 个 以 上 的 GPS 点 ; 类 型 2: 同一 辆 车 在 某 段 路 
设计 深度 Q-learning 算法 学 习 出 租车 司机 经 验 , 根据 他 /她 的 。 上 只 留 下 一 个 GPS 点 。 


出 发 时 间 在 线 计算 给 定 OD 间 的 最 快 路 径 。 深度 Q-learning 类 型 1 的 GPS 点 分 布 如 图 1 所 示 。 某 车 辆 在 该 路 段 留 下 
算法 包含 强化 学 习 0445 和 深度 学 习 CDL) NI 两 个 方法 。 了 两 个 以 上 的 GPS 点 , 本 文 计算 首 定位 点 和 末 定 位 点 到 下 游 
利用 强化 学 习 ， 智 能 体 从 GPS 数据 中 学 习 出 租车 司机 经 验 ， EARJE sis? ， 以 及 时 间 计 算 两 点 的 距离 和 两 点 的 时 间 
计算 OD 间 最 快 路 径 ， 该 路 线 可 能 是 一 条 新 的 路 径 。 利 用 深 ” 差 #-4#， 从 而 得 到 这 辆 车 的 平均 速度 。 求 和 某 时 段 经 过 该 路 


uu 


度 学 习 ， 可 以 实时 快速 地 计算 OD 间 最 快 路 径 。 段 的 所 有 车 辆 的 距离 和 时 间 差 , 可 得 到 该 路 段 % 的 路 段 速度 
1 问题 描述 
| UM | 
本 节 将 介绍 本 文中 使 用 的 一 些 术语 ,然后 描述 研究 问题 。 | 
定义 1 路 网 。 本 文通 过 “节点 一 弧 段 ”的 方法 对 路 网 进 | | 


si 
le 
A 1 


行 描述 。 定义 有 向 图 G=(E,4) 表示 路 网 ， 其 中 ，E={e,;} 为 路 | first sampling point A last sampling point j- 
a 口 。 在 本 研究 中 ， 起 始 节点 ， 


| 节点 集 ， 表 示 交 了 叉 J es 表示 
图 1 类 型 1: 同一 辆 车 在 某 段 路 上 留 下 两 个 或 两 个 以 上 GPS 点 


Fig. 1 Typel: taxi leaves two or more than two GPS points on a 


用 eo 表示 目的 地 节点 。4={4j=(e,61)|e,ejeN} 为 有 向 路 段 集 。 


其 中 ， ag 表示 从 节点 6@ 到 e; 的 有 问 路 段 。 certain road segment 
定义 2 WEBER. 0o 表示 有 向 路 段 , 用 o KRRP a 长 度 。 类 型 2 的 GPS 点 分 布 如 图 2 所 示 。 对 于 车 辆 只 在 目标 路 
定义 为 行驶 于 路 段 as 车 辆 的 区 间 平 均 车 速 , 5 表示 通过 路 Bas 上 留 下 一 个 GPS 点 ， 本 文通 过 把 路 段 分 成 若干 个 AL， 
Bt as 的 平均 行驶 时 间 。 将 位 于 AL 范围 内 的 所 有 GPS 点 的 点 速度 的 平均 值 作为 AL 
定义 3 路 径 。 路 径 R 由 一 系列 连接 的 路 段 组 成 ， 范围 内 的 平均 速度 vi， 得 到 若干 个 区 间 速 度 ， 最 后 将 求 出 所 
ie. R: do, > t2 >a, p RIR OD 间 一 条 路 径 。 ^H DX [RI EE RFE, HERE JIRE RE v o 
定义 4 连接 路 段 集 。 定 义 w 为 节点 6 的 下 一 节点 集 ， | w | 
L -(a,, le, EN) 表示 和 节点 6 相连 接 的 路 段 集 。 m i 
LA AL AL ， , ' | 
定义 5 转向 规则 CTRD. EYN Tft -(a,.6.2,)]a E)K A 
O 示 交 叉 口 转向 规则 : a] 表示 当前 所 在 路 段 ，v; 表示 当前 所 Wu Vu Va Tu 
在 交叉 口 ，ajx 表示 下 一 路 段 。 图 2 类 型 2: 同一 辆 车 在 某 段 路 上 只 留 下 一 个 GPS 点 
定义 6 路 段 经 验 数据 库 (ERSD )。ERSD 记录 每 天 不 同 Fig.2 Type2: taxi leaves only one GPS point on a certain road 
时 间 段 内 路 段 速度 、 旅 行 时 间 等 信息 ， 信 息 是 从 出 租车 GPS segment 
数据 中 提取 的 ,后 面 将 详细 介绍 。 假设 出 租车 GPS 数据 中 类 型 1 GPS 点 的 比例 为 mw， 则 类 


研究 问题 定义 : 给 定 出 行者 OD 及 出 发 时 间 ， 利 用 从 出 型 2 GPS 点 比例 为 IL@ 。 路 段 4 的 路 段 平均 速度 可 由 式 (]) 
租车 GPS 数据 中 提取 的 经 验 路 段 数 据 库 (ESRD) 和 交叉 口 转 计算 : 

向 规则 (TRD， 在 线 计算 OD 间 最 快 路 径 。 v/-a! 4(1-a vi (1) 

TL ZA ^s X5 B 2.83 ”路段 旅行 时 间 估 计 
2 。 路 段 经 验 数 据 库 提取 根据 定义 2 及 路 段 平 均 速度 斑 ， 路 段 wv 旅行 时 间 可 
本 章 将 介绍 经 验 路 段 数据 库 CERSDO 的 提取 ， 然 后 指 式 (2) 计 算 : 

述 路 段 平 均 车 速 估 计 ， 以 及 旅行 时 间 估 计 。 z=% Q) 
2.4 路 段 经 验 数据 库 7, 

良好 的 路 径 推 荐 系统 应 考虑 实时 交通 条 件 和 出 行者 驾驶 


3 ”路 径 学 习 和 计算 


行为 。 路 段 行驶 时 间 变 化 性 至 少 体现 在 两 方面 : 
a) 时 变性 。 路 段 上 的 交通 流量 随时 间 变 化 ， 进 而 影响 路 本 章 提出 用 于 在 线 计算 OD 间 最 快 路 径 的 约束 深度 强化 
段 行驶 时 间 。 例 如 ， 道 路 可 能 在 高 峰 时 段 变 得 拥挤 ， 在 非 高 。” 学 习 (CDRL) 方法 。 首先 介绍 了 OD 间 可 选择 约束 路 段 生 
峰 时 段 通畅 行驶 。 成 ， 然 后 描述 用 于 学 习 OD 间 最 快 路 径 的 强化 学 习 算 法 ， 最 
b) 空间 变化 性 。 不 同 的 道路 具有 不 同 的 时 变 交 通 模式 。 ”后 介绍 了 用 于 OD 间 最 快 路 径 学 习 和 在 线 计算 的 CDRL 方法 。 


H 


例如 ， 一 些 道路 即使 在 高 峰 时 段 也 通畅 行驶 。 但 是 有 些 道路 
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录用 定稿 R 敏 ， 等 : 基于 出 和 
3.1 约束 路 段 生 成 

如 研究 中 所 述 , 出 租车 司机 经 验 隐 藏 在 GPS 数据 中 , 这 
种 经 验 是 从 成 二 上 万 次 出 行 中 积累 起 来 的 ， 隐 含 着 他 们 对 道 
路 网 络 和 真实 交通 状况 的 熟悉 程度 。 出 租车 司机 通常 根据 驾 
驶 经 验 选 择 最 快 的 路 径 ， 尽 量 减少 行驶 路 径 上 发 生 交通 拥堵 


情况 ,将 乘客 送 达 目的 地 。 由 于 出 租车 GPS 数据 的 稀疏 性 和 
低 采 样 率 ， 很 多 OD 之 间 不 能 获取 足够 的 信息 来 推断 出 租车 
行驶 的 确切 路 线 。 但 出 租车 GPS 数据 足够 大 ， 可 以 获知 OD 
间 所 有 行驶 路 段 的 交通 数据 ， 出 租车 司机 的 经 验 同样 隐藏 在 
OD 间 行 驶 的 路 段 中 。 因 此 ， 可 以 通过 学 习 OD 间 行 驶 路 段 
来 学 习 出 租车 司机 经 验 。 

对 于 最 优 路 径 选 择 问题 ， 需 要 生成 OD 间 路 径 选 择 集 。 
Ramming LI 和 Frejinger 等 人 P9 指 出 ， 通 常 很 难 生成 OD 间 
包含 所 有 实际 选择 路 径 的 路 径 选 择 集 。 在 实际 中 ， 出 行者 往 
往 只 选择 OD 间 若 干 条 路 径 行驶 ， 即 OD 间 可 选择 路 径 存在 
一 定 约束 。 为 了 避免 生成 的 路 径 选 择 集 遗 漏 重要 的 路 径 ， 
是 生成 路 径 集 满足 约束 ， 本 文采 用 数据 挖掘 方法 。 对 于 每 个 
OD 对 ， 选 择 足 够 长 的 采样 时 间 段 T， 提 取 该 时 间 段 GPS 数 
据 中 出 租车 所 有 行驶 路 径 ， 利 用 行驶 路 径 可 获得 OD 对 间 可 
选 行驶 路 段 集 ro， 然 后 通过 搜索 由 可 选 行驶 路 段 集 so0w 组 成 
的 路 网 来 获得 OD 间 所 有 可 能 选择 路 径 。 
对 于 每 个 OD 对 ， 选 择 足 够 长 的 采样 时 间 段 T。 如 果 出 


行者 在 工时 间 段 内 ， 所 有 实际 选择 的 路 径 中 总 共 包含 条 路 
段 ， 就 可 以 认为 这 4 条 路 段 组 成 的 路 段 集合 ， 可 作为 该 OD 


对 可 选 行驶 路 段 集 so» 。 
于 出 租车 GPS 数据 足够 大 , 获得 OD 间 所 有 实际 行驶 
路 段 的 数据 是 容易 的 。 该 方法 的 优点 是 可 以 生成 OD 间 所 有 
实际 选择 行驶 路 段 ， 获 得 的 选择 路 径 集 不 会 遗漏 实际 中 重要 
的 路 径 。OD 间 可 选 行驶 路 段 集 隐 含 了 出 租车 司机 的 经 验 ， 
可 用 于 智能 体 学 习 ， 降 低 强 化 学 习 算法 的 仿真 时 间 。 同 样 ， 
该 方法 存在 一 个 缺点 ， 需 要 一 个 很 长 的 采样 时 间 段 工 来 获取 
一 个 稳定 的 OD 间 所 有 实际 选择 路 段 集 oo o 

3.2 强化 学 习 
本 文中 出 行者 根据 导航 和 驾驶 经 验 ， 选 择 从 一 个 交叉 口 


G(hx) 最大。 假设 条 
动作 。 特别 地 , EX Oleana) CQ 值 ) 为 


择 路 ER 最 大 OA m" 折 


liin 
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Q(e;.a;;4 )=r (€; a; i ) * y max G (harg ) , 则 


本 研 究 中 Q(e,aiin) 


减 


XA(e)=arg max letsa) 


第 37 卷 第 5 期 


出 行者 需要 找到 策略 z(e) ,使 得 episode. 累积 折 减 收益 
j 贪 禁 策 略 ， 总 是 选择 使 G(hx ) 最 大 的 
行者 在 交叉 口 “ 选 


收 mi 


(4) 


H Olesa) 值 已 知 ， 就 可 以 通过 式 〈4) 求解 最 优 策略 。 


天 


PL 
学 


新 和 迭代， 估计 值 变 得 越 来 越 准 


而 可 以 通过 从 后 往 前 迭代 


( 


ERE, 但 式 (4) 满 足 Bellman 方程 性 质 ， 
titt Olesa) 值 , 如 式 (5) 所 示 。 


O(e; ja )=r(e EE )+7 max Ql(en uuo ) 
ai acaeA(ea) 


G) 


强化 学 习 算法 需要 不 断 和 迭代 更 新 Oleas) 值 ， 在 最 开始 


习 中 leain) 估计 值 与 实际 值 会 相差 很 大 ， 但 随 着 每 次 更 


3.3 约束 深度 强化 学 习 


状 
数 


的 
大 
的 


输 


s(e:)=[xX, YX], x.» 
xp,yp 表示 目的 地 交叉 
Q(s(e)) 表示 , 将 出 行者 所 
TIE s(a) 输入 本 文 设 计 的 凶 


的 


地 


H. 


传统 的 强化 学 习 求解 ,Q 值 估计 通常 使 用 
个 函数 近似 器 实现 22 。 然 而 ,如 果 最 优 路 径 规划 问题 的 
态 空间 很 大 ， 存 储 这 么 一 个 表 将 很 消耗 时 间 和 内 存 ， 而 函 
近似 方法 不 能 解决 实时 最 优 路 径 规 划 
深度 Q-learning 算法 来 估计 Q 
更 用 深度 神经 网 络 


本 研究 采 | 


T 


E 


确 。 


" 


函数 近似 器 。 使 用 
的 、 连 续 的 状态 空 | 
神经 网 络 中 ， 将 出 
入 ， 输 出 起 始 地 到 


| 


M 


分 别 表示 交叉 


X 


O e 的 


问题 。 


作为 状态 映射 到 Q 值 


个 Q 值 表 或 


值 。 在 深度 


经 网 络 作 为 近似 器 ， 可 以 解决 
的 最 优 路 径 规 处 
了 者 起 始 地 所 在 交 
的 地 的 旅行 时 间 。 
本 文 将 出 行者 所 在 交叉 


问题 中。 本 研究 使 用 
口 的 状态 特征 作为 


人 


旅行 时 间 用 


的 旅行 时 间 2(s(e)) o 


在 深度 Q-learning 算法 中 ， 出 行者 执行 策 
奖励 组 成 的 episode， 


得 到 由 状态 、 


行驶 到 另 一 个 交叉 口 ， 并 从 环境 中 获得 收益 ， 目 标 是 选择 
条 OD 间 由 可 选择 路 段 连接 组 成 的 效益 最 大 路 径 。 该 过 程 类 


在 


似 于 MDP 过 程 ， 可 用 强化 学 习 算 法 解决 。 强 化 学 习 算 法 包 
含 几 个 重要 部 分 : 状态 空间 5 、 动 作 空 间 4 、 奖 励 函 数 7、 
折 减 系数 7 。 
出 行者 的 状态 ses 表示 出 行者 在 路 网 中 所 在 交叉 口 
as 巨 。 在 交叉 口 。 的 动作 集 4(e) 表示 和 交叉 口 “ 相 连接 的 路 
Bra, qjeh。 奖 励 函数 re,aiin) 表示 出 行者 在 交叉 口 “ 选 
TER BE aus 的 收益 。 本 文 研究 目标 是 计算 OD 间 最 快 路 径 ， 
E rii af HI Bi 4 旅行 时 间 的 负 值 -表示 动作 奖励 ,如 式 (3) 
所 示 。 


T (€i, 54) = lia (3) 
折 减 系数 y € (0.1) 表示 当前 动作 选择 对 未 来 的 影响 程度 ， 

7 越 接 近 1， 表 明 当 前 状态 选择 动作 对 未 来 影响 程度 越 大 。 
该 问题 的 解决 方法 是 寻找 一 个 策略 = ， 策 略 表 示 状 态 到 
动作 的 一 个 映射 。 在 本 研究 ， 策 略 7 表示 出 行者 在 交叉 口 选 
择 的 行驶 路 段 , RIRN AlE) ti 。 出 行者 执行 策略 = 和 环境 
交互 得 到 由 状态 、 动 作 、 奖 励 组 成 的 回合 (episode )， 表 示 
为 hix = es us (eda) Cin in (Craii) sek, ex 表示 出 行 


者 最 终 所 在 交叉 口 。 定 义 GS) 表示 episode 累积 折 减 收益 ， 
表示 为 G(hx)=D yr (nua) o 


success episode 
深度 Q-learning 算法 中 ， 当 智能 体 完 成 一 次 success 


episode, Q 值 发 4 


动作 、 
hix = eisir (6j aiia EAR RER ORRERI sek 


交叉 口 为 目的 地 所 在 交叉 


E 更 新 , 将 episode H 


4a 的 经 度 、 纬 度 。 


X 
X 


AR 
A 
AR 
A 


1E 


状态 特征 表示 为 
;的 经 


口 “ 到 目的 地 
O e 的 状态 特 


经 网 络 ， 就 能 


得 到 交叉 口 “ 到 目的 


各 x 和 环境 交 


, 藻 出 行者 最 终 所 
口 ， 即 ex =ep， 则 称 该 episode 为 


出 行者 在 交叉 口 6 的 每 


次 选择 记录 表示 为 (5(4),amr(t4iim),s(em))， 存 储 于 集合 


episode memory E 中 。 


a 


智能 体 每 次 完成 success episode， 


计算 success episode 中 每 个 交叉 口 6 到 


[ 
N 
该 


(旅行 时 N 
-(65(6).a(6)) 


X 


以 


本 研究 采 上 
通过 最 小 化 交叉 口 


X 


€j 到 


负 值 ) 


集合 中 二 元 组 (s(6),q(e)) 存储 交 交叉 
到 目的 地 的 最 短 旅行 时 间 。 

的 深度 Q-learning 算法 ， 神 经 网 络 的 训练 可 
4 到 目的 地 的 最 短 旅行 时 间 ae) 和 交 
的 地 的 旅行 时 间 估 计 值 8(s(e)) 误差 


G(hix) 


L(0)=5, 90) -0(s(e),0)) 


的 地 的 累积 折 减 收 


定 义 


e; e E,q(e;)=minG(hx)) 表示 node memory N, 
O e 的 状态 特征 及 交 


PAFI, BH 


(6) 


当 出 行者 完成 一 定 success episode 得 到 策略 后 ， 将 面临 


explore-exploit 困境 : 即 选择 当前 最 优 策 略 ， 或 者 继续 探索 寻 
究 采用 c RERIK, U c 概率 选择 


找 


可 能 的 更 优 策 略 。 本 下 


当前 最 佳 策略 ，1-s 概率 
基于 深度 Q-learning 算法 ,结合 OD 间 可 选 约 束 路 段 集 


随机 选择 策略 。 
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本 研究 提出 了 CDRL 算法 ,算法 具体 步骤 如 下 表 伪 代码 描述 。 


TRI. 


Algorithm1 CDRL 算法 
输入 : 路 网 G=(E,A) ; OD 间 可 选 约束 路 段 集 so ;交叉 口 转向 规则 


1 初始 化 node memory D 
2 初始 化 动作 价值 函数 8 及 神经 网 络 权重 系数 9 
for episode = 1, M do 
初始 化 episode 
for step = 1, K do 


3 在 交叉 


ea， 满 足 交叉 口 转向 规则 TRI 时 ,采用 s 贪 焚 策 略 选择 和 
交叉 口 相连 的 路 段 aiin € L 

4 将 选择 记录 (earor(ear)) 加 入 episode 及 记录 
(s (€) dinit (esaii) 5(62)) 存储 于 episode memory E 


if el 一 en then 


break 


end for 


5 计算 success episode 中 每 个 交叉 口 @ 到 目的 地 的 累积 折 减 收益 


G(hx)， 并 
6 使 用 梯度 下 降 台 


end for 


更 新 node memory N 


新 9 ， 以 最 小 化 (ge) 一 CGs(e) 0)? 


输出 : 策略 aasal) 。 


4 ”实例 应 用 


在 本 章 中 ， 为 了 评估 CDRL 方法 的 性 能 ， 算 法 应 用 于 广 


州 市 出 租车 司机 OD 路 径 选择 实例 研究 中 ， 并 将 结果 与 基于 
Dijkstra 算法 的 最 快 路 径 CFRO 和 最 短路 径 (SR) 方法 计算 
的 结果 进行 比较 。 
4.1 实验 数据 及 预 处 理 


本 文选 择 


区 CBD 道路 网 络 


的 出 租车 GPS 数据 是 广州 市 1800 多 辆 出 租车 从 2015 年 6 月 
1 Hz 2015 *£ 6 H 21 日 ， 超 过 4.74 亿 条 出 租车 GPS 记录 ， 
昌 库 提取 了 路 段 经 验 数据 库 (ERSD )。 


并 基于 此 数 扩 


广州 市 天 河 区 CBD 作为 实例 研究 区 域 ， 天 河 


345 个 路 段 和 202 个 交叉 口 。 本 文 使 用 


Em. PREX | 


图 3 所 示 是 广州 天 河 区 CBD 早 高 峰 路 段 平均 速度 估计 
数字 表示 的 是 该 路 段 早 高 峰 路 段 平 均 速度 估计 


出 ， 广 州 CBD 在 早 高 峰 时 段 出 租车 行驶 


值 。 从 图 3 可 以 看 
速 


速度 缓慢 , 因 


为 时 高峰 时 段 大 量 城市 居民 要 前 往 CBD EIE. 
CBD 区 域内 横向 、 纵 向 的 几 条 主干 道行 驶 速度 明显 高 于 区 域 


内 的 支 路 ， 因 为 广州 CBD 内 大 量 公司 位 于 支 路 旁边 ， 出 租 


车 在 主干 路 上 能 


FE 常 行驶 ， 乘 客 一 般 在 支 路 上 下 和 车。 


图 4 所 示 是 广州 天 河 区 CBD 早 高 峰 路 段 旅行 时 间 估 计 


结果 。 路 段 上 数字 表示 的 是 该 路 段 早 高 峰 路 段 旅行 时 间 估 计 


值 。 


选取 2015 年 6 
库 作 为 模型 的 


| 练 集 ,选取 2015 年 6 月 15 日 至 21 日 获得 的 
路 段 经 验 数据 库 作为 模型 的 验证 集 。 
4.2 CDRL 算法 训练 


基于 从 出 租车 GPS 数据 


月 1 日 至 6 月 14 日 获取 的 路 段 经 验 数据 


提取 的 路 段 经 验 数 据 库 , 采用 


CDRL 方法 学 习 出 租车 司机 经 验 。 训 练 数据 集 是 2015 年 6 


月 1 日 至 2015 年 


CBD 区 域内 


以 及 交叉 口 转向 规 


6 月 14 日 提取 的 路 段 经 验 数据 库 。 
在 CDRL 模型 中 ,输入 广州 天 河 区 CBD 路 网 G=(E,4)， 


若干 个 OD 对 的 经 纬度 及 可 选 约束 路 段 集 so» ， 


则 TRI， 模 型 的 训练 通过 最 小 化 OD 间 最 
短 旅行 时 间 和 实际 旅行 时 间 估 计 值 的 误差 平方 和 。 


图 5 显示 了 在 早 高 峰 时 段 、 晚 高 峰 时 段 、 其 他 非 高 峰 时 


Et CDRL 方法 的 


经 网 络 损失 函数 收敛 曲线 。 可 以 看 到 ， 


CDRL 方法 在 早 高 峰 时 段 欠 代 到 约 2700 次 收敛 ， 在 晚 高 峰 
时 段 迭 代 约 1800 次 收敛 ， 在 其 他 非 高 峰 时 段 和 迭代 约 2 300 
次 时 收敛 。 另 外 ， 三 个 时 间 段 ， 在 训练 阶段 初期 ， 神 经 网 络 
损失 函数 收敛 曲线 振荡 明显 ， 因 为 强化 学 习 算 法 在 初期 学 习 
阶段 对 OD 间 最 短 旅行 时 间 估 计 误 差 很 大 ， 随 着 循环 次 数 增 
多 ， 最 短 时 间 估 计 值 越 来 越 准 确 。 


11.34 | 15.42 
15.05 | 13. 01 


3 CBD 早 高 峰 路 段 平均 速度 估计 值 
Fig.3 Speed estimation of road segment in morning peak hours in 
CBD 


EN 3.68. 


E .1 1483 E 


E 


4 CBD 早 高 峰 路 段 旅行 时 间 估 计 值 


Fig.4 Travel time estimation of road segment in morning peak hours 


in CBD 

神经 网 络 损失 函数 反映 旅行 时 间 预 测 的 误差 。CDRL 77 

法 将 出 行者 所 在 交叉 口 和 目的 地 的 经 纬度 输入 神经 网 络 ， 输 

出 交叉 口 到 目的 地 的 旅行 时 间 ， 若 路 网 所 有 路 段 的 交通 状况 

相同 ， 则 神经 网 络 损失 函数 的 值 可 以 接近 零 。 图 5 中 其 他 非 

高 峰 时 段 预测 误差 最 小 ， 因 为 该 时 段 CBD 路 段 交 通 流 密度 

接近 ， 早 高 峰 预 测 误差 最 大 ， 因 为 早 高 峰 CBD 一 部 分 路 段 

可 能 拥堵 ， 而 有 些 路 段 却 通畅 ， 路 段 流量 差别 大 ， 晚 高 峰 时 
段 预测 误差 居中 ， 因 为 晚 高 峰 CBD 大 部 分 路 段 都 很 拥堵 。 


` 
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1a X -——— m 方法 计算 路 径 旅行 时 间 的 比值 。 从 图 6 可 以 看 出 ， 采 用 FR 
i 方法 计算 的 OD 间 路 径 ， 在 早 高 峰 时 间 段 ， 大 部 分 路 径 的 旅 


行 时 间 小 于 或 等 于 CDRL 方法 的 结果 ， 但 差距 不 大 ，FR / 
CDRL 比值 在 0.8~1.0 间 。 因 为 FR 和 CDRL 方法 都 倾向 于 选 
择 旅 行 时 间 最 短 的 路 线 ， 但 由 于 CDRL 训练 回合 数 不 够 , II 
练 网 络 未 至 最 优 ， 晚 高 峰 时 段 和 非 高 峰 时 段 实验 结果 和 早 高 
峰 时 段 类 似 。 采 用 SR 方法 和 CDRL 方法 计算 的 路 径 ， 早 高 


— 峰 时 段 ，SR / CDRL 的 比值 在 0.95-1.1 间 ， 基 本 接近 于 1. 
0 500 1000 1500 上 2000 2500 3000 3500 但 CDRL 计算 的 约 80% 路 径 旅 行 时 间 比 SR 方法 短 。 天 | 为 
图 5 CDRL 方法 神经 网 络 损失 函数 收敛 曲线 CDRL 算法 ， 通 过 学 习 出 租车 司机 经 验 ， 会 选择 当前 策略 下 
Fig. 5 | Convergence curve of loss function by CDRL method 旅行 时 间 最 短路 径 ， 所 以 所 选 路 径 旅 行 时 间 优 于 SR 方法 所 
4.3 ”旅行 时 间 对 比 选 路 径 。 
本 文 随机 选择 广州 CBD 区 域内 20 个 OD 对 进行 实验 ， 图 7 显示 在 划分 的 三 个 时 段 内 采用 三 种 方法 计算 OD 间 


验证 数据 集 是 2015 年 6 月 15 日 至 2015 年 6 月 21 日 提取 的 路径 的 路 径 总 旅行 时 间 对 比 。 可 以 看 出 ， 在 三 个 时 间 段 内 ， 
路 段 经 验 数据 库 , 分 别 应 用 CDRL Zr iE FR 方法 和 SR 方法 。 FR 方法 计算 的 路 径 总 旅行 时 间 最 短 ， 因 为 FR 算法 选择 OD 
FR 方法 中 ， 使 用 路 段 旅行 时 间作 为 路 段 价值 ， 然 后 采用 间 旅 行 时 间 最 短路 径 。 其 次 则 为 CDRL 方法 计算 路 径 ， 在 晚 
Dijkstra 算法 计算 OD 间 旅 行 时 间 最 短路 径 。SR 算法 中 ， 使 高 峰 时 段 和 非 高 峰 时 段 ，CDRL 方法 计算 路 径 的 总 旅行 时 间 

的 


用 路 段 长 度 作为 路 段 价值 ， 然 后 采用 Dijkstra 算法 计算 OD ”都 小 于 SR 方法 计算 路 径 的 总 旅行 时 间 。SR 方法 计算 路 径 世 
间 长 度 最 短路 径 。 总 旅行 时 间 最 长 ， 只 在 早 高 峰 时 段 计 算 路 径 的 总 旅行 时 间 小 
图 6 显示 了 采用 三 种 方法 计算 OD 间 路 径 的 旅行 时 间 对 ”于 CDRL 方法 ,因为 早 高 峰 时 段 CBD 区 域 道路 流量 差别 大 ， 


比 。 图 中 条 形 块 的 高 度 表 示 计 算 路 径 的 旅行 时 间 ， 图 右 侧 纵 — CDRL 方法 计算 路 径 误差 相对 较 大 ， 因 而 当前 策略 下 旅行 时 
坐标 刻度 表示 FR 方法 ，SR 方法 计算 路 径 旅 行 时 间 与 CDRL — 间 最 短路 径 稍 差 于 SR 方法 计算 路 径 。 
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(c) 其 他 非 高 峰 时 段 
(c) Offpeak hours 
图 6 CDRL, FR and SR 方法 计算 路 径 旅 行 时 间 对 比 
Fig.6 Route travel time comparison for CDRL, FR and SR 


实验 仿真 是 在 CPU: AMD FX(tm)-4130 Quad-Core Processor, 


8GB 内 存 、 


3.8 GHz 主 频 的 计算 机 上 实现 ,程序 采用 Python 
编程 语言 实现 。 选 取 2015 年 6 月 15 日 至 2015 年 6 月 21 日 


提取 的 路 段 经 验 数据 库 作 为 验证 数据 集 ， 


(n 


使 用 4.3 节 中 的 20 


个 OD 对 进行 实验 ， 本 文 使 用 算法 运行 时 间 来 评价 三 种 方法 


e CDRL 方法 中 , 输入 20 个 OD 对 的 起 终 节点 所 在 交叉 口 
(© 的 经 纬度 ， 路 网 及 路 段 经 验 数 据 库 ， 然 后 使 用 训练 好 的 模型 
〇 计算 20 个 OD 对 间 最 快 路 径 , 记录 算法 运行 时 间 。FR 和 SR 
e 方法 中 ， 将 20 个 OD 对 及 路 网 输入 模型 ， 然 后 计算 各 个 OD 
e 间 的 最 快 路 径 ， 并 记录 算法 运行 时 间 。 
< 十 表 1 表示 在 划分 的 dg 个 时 段 内 , 采用 三 种 方法 计算 OD 
e 间 路 径 的 计算 时 间 差 异 。 可 以 看 出 ， 在 三 个 时 段 ， 采 用 SR 
OD 方法 计算 路 径 的 计算 时 间 是 相同 的 ， 因 为 它们 没有 考虑 实际 
工交 通信 息 。 三 个 时 间 段 的 SR 的 计算 时 间 都 是 相同 的 ， 因 为 
X 它们 没有 考虑 实际 的 交通 情况 。CDRL 方法 , FR 方法 在 高 峰 
时 段 的 总 计算 时 间 高 于 非 高 峰 时 段 ， 因 为 在 高 峰 时 段 ， 算 法 
需要 搜索 更 大 的 路 网 节点 空间 以 获得 OD 间 路 线 。 且 在 早 高 
^ 峰 时 段 和 晚 高 峰 时 段 的 总 计算 时 间 是 差别 不 大 。 
© 从 表 1 可 得 到 ，CDRL 方法 的 总 计算 时 间 最 短 ， 因 为 训 
C. 练 好 的 用 于 计算 旅行 时 间 神 经 网 络 ， 可 以 快速 地 计算 各 个 交 
三 又 口 到 目的 地 的 旅行 时 。 其 次 为 SR 方法 计算 路 径 所 需 总 时 
G 间 ，FR 的 总 计算 时 间 最 长 。 此 外 ，CDRL 方法 的 计算 时 间 
远 远 小 于 SR 和 FR 方法 。 因此 ， 它 更 适合 在 线 OD 间 最 快 
路 径 计算 。 
表 1 CDRL, FR and SR 方法 总 计算 时 间 对 比 
Table 1 Total calculate time for CDRL、 FR and SR 
早 高 峰 时 段 晚 高 峰 时 段 其 他 非 高 峰 时 段 
CDRL 1.981s 1.972s 1.717s 
FR 6.304s 6.243s 6.075s 
SR 4.999s 4.999s 4.999s 
5 ”结束 语 


随 着 人 工 智能 的 发 展 ， 强 化 学 习 在 最 优 路 径 规 划 方 


应 

法 中 ， 智 能 体 在 交叉 

到 来 自 环境 对 选择 路 段 效益 
奖励 调整 其 


在 旅行 时 间 方 


CDRL 方法 在 计算 效率 方 再 


面 


本 文 提 出 通过 学 习 出 租 


Ei 


引起 学 者 关注 。 与 传统 的 路 径 规划 方法 不 同 ， 在 RL 算 
口 ， 通 过 选择 路 段 与 环境 进行 交互 ， 得 


的 价值 反馈 ， 并 根据 环境 给 出 的 


动作 ， 从 而 选择 OD 间 最 优 的 路 径 。 


车 司机 经 验 来 在 线 计算 OD 间 最 


快 路 径 的 CDRL 方法 。 实证 研究 表明 ， 该 方法 计算 的 路 径 


优 于 SR 方法 , 与 FR 方法 差别 不 大 。 此 外 ， 


明显 优 于 FR 和 SR 方法 , 因此 更 


潜力 ， 可 能 改变 下 一 代 ITS 发 展 历程 。 
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图 7 CDRL, FR and SR 方法 计算 路 径 的 总 旅行 时 间 对 比 
Fig.7 Total travel time comparison for CDRL, FR and SR 
44 计算 效率 对 比 适合 在 线 计算 OD 间 最 快 路 径 。 本 文 认为 ， 这 种 经 验 学 习 ， 
本 文采 用 CDRL、FR 和 SR 三 种 方法 计算 OD 间 路 径 ， 深度 强化 学 习 方法 与 并 行 智能 交通 系统 P49 的 结合 具有 巨大 


本 文 提出 的 的 方法 也 存在 一 些 缺 陷 和 不 足 。 该 方法 的 神 


经 网 络 训练 时 是 回合 制 (episode) 更 新 ， 效 率 低 ， 后 期 将 设计 
更 优 的 神经 网 络 结构 用 于 算法 训练 。 
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